近年来,健壮的主成分分析(PCA)受到了广泛关注。它的目的是从其总和中恢复一个低级别矩阵和稀疏矩阵。本文提出了一种新型的非凸强壮的PCA算法,即Riemannian Cur(Riecur),它利用了Riemannian优化和强大的CUR分解观念。该算法与迭代的鲁棒cur具有相同的计算复杂性,后者目前是最新的,但对离群值更强。Riecur还能够忍受大量的异常值,并且与加速的交替预测相媲美,该预测具有很高的离群公差,但计算复杂性比提议的方法差。因此,所提出的算法在计算复杂性和异常耐受性方面都可以在鲁棒PCA上实现最新性能。
translated by 谷歌翻译
In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global and local techniques.
translated by 谷歌翻译
Automated cellular instance segmentation is a process utilized for accelerating biological research for the past two decades, and recent advancements have produced higher quality results with less effort from the biologist. Most current endeavors focus on completely cutting the researcher out of the picture by generating highly generalized models. However, these models invariably fail when faced with novel data, distributed differently than the ones used for training. Rather than approaching the problem with methods that presume the availability of large amounts of target data and computing power for retraining, in this work we address the even greater challenge of designing an approach that requires minimal amounts of new annotated data as well as training time. We do so by designing specialized contrastive losses that leverage the few annotated samples very efficiently. A large set of results show that 3 to 5 annotations lead to models with accuracy that: 1) significantly mitigate the covariate shift effects; 2) matches or surpasses other adaptation methods; 3) even approaches methods that have been fully retrained on the target distribution. The adaptation training is only a few minutes, paving a path towards a balance between model performance, computing requirements and expert-level annotation needs.
translated by 谷歌翻译
我们使用fr \'echet演算介绍了前馈神经网络梯度的推导,这比文献中通常呈现的梯度更紧凑。我们首先得出了在矢量数据上工作的普通神经网络的梯度,并展示如何使用这些派生公式来得出一种简单有效的算法来计算神经网络梯度。随后,我们展示了我们的分析如何推广到更通用的神经网络架构,包括但不限于卷积网络。
translated by 谷歌翻译
域的概括(DG)旨在学习通过使用来自多个相关源域的数据,其在测试时间遇到的看不见的域的性能保持较高的模型。许多现有的DG算法降低了表示空间中源分布之间的差异,从而有可能使靠近来源的看不见的域对齐。这是由分析的动机,该分析解释了使用分布距离(例如Wasserstein距离)与来源的分布距离(例如Wasserstein距离)的概括。但是,由于DG目标的开放性,使用一些基准数据集对DG算法进行全面评估是一项挑战。特别是,我们证明了用DG方法训练的模型的准确性在未见的域中,从流行的基准数据集生成的未见域有很大差异。这强调了DG方法在一些基准数据集上的性能可能无法代表其在野外看不见的域上的性能。为了克服这一障碍,我们提出了一个基于分配强大优化(DRO)的通用认证框架,该框架可以有效地证明任何DG方法的最差性能。这使DG方法与基准数据集的经验评估互补的DG方法无关。此外,我们提出了一种培训算法,可以与任何DG方法一起使用,以改善其认证性能。我们的经验评估证明了我们方法在显着改善最严重的损失(即降低野生模型失败的风险)方面的有效性,而不会在基准数据集上产生显着的性能下降。
translated by 谷歌翻译
经过认证的稳健性保证衡量模型对测试时间攻击的稳健性,并且可以评估模型对现实世界中部署的准备情况。在这项工作中,我们批判性地研究了对基于随机平滑的认证方法的对抗鲁棒性如何在遇到配送外(OOD)数据的最先进的鲁棒模型时改变。我们的分析显示了这些模型的先前未知的漏洞,以低频OOD数据,例如与天气相关的损坏,使这些模型不适合在野外部署。为了缓解这个问题,我们提出了一种新的数据增强方案,Fourimix,产生增强以改善训练数据的光谱覆盖范围。此外,我们提出了一种新规范器,鼓励增强数据的噪声扰动的一致预测,以提高平滑模型的质量。我们发现Fouriermix增强有助于消除可认真强大的模型的频谱偏差,使其能够在一系列ood基准上实现明显更好的稳健性保证。我们的评估还在突出模型的光谱偏差时揭示了当前的OOD基准。为此,我们提出了一个全面的基准套件,其中包含来自光谱域中不同区域的损坏。对拟议套件上流行的增强方法培训的模型的评估突出了它们的光谱偏差,并建立了富硫克斯训练型模型在实现整个频谱上变化下的更好认证的鲁棒性担保的优势。
translated by 谷歌翻译
无监督的域适应(UDA)通过将知识从标记的源域传送到与目标的分布不同的标记源域来实现跨域学习。但是,UDA并不总是成功,在文献中报告了几个“负转移”的几个账目。在这项工作中,我们在目标域错误上证明了一个简单的下限,这些错误符合现有的上限。我们的界定显示了最小化源域误差和边际分布不匹配的不足,因为由于可能的诱导标记功能不匹配可能增加,因此由于可能的增加而减少目标域误差。通过同一UDA方法成功,失败的简单分布进一步说明了这种不足,并且可以成功或失败,并且可以使用相同的机会。从此激励,我们提出了新的数据中毒攻击,以欺骗UDA方法进入产生大目标域错误的学习陈述。我们使用基准数据集评估这些攻击对流行的UDA方法的影响,他们以前已经证明是成功的。我们的结果表明,中毒可以显着降低目标域精度,在某些情况下将其降至近0%,在源域中添加了10%中毒数据。这些UDA方法的失败在保证与我们下限符合的跨域泛化时,他们的局限性阐述了它们的局限性。因此,评估诸如数据中毒等对逆势设置中的UDA方法提供了更好的稳健性对UDA不利的数据分布。
translated by 谷歌翻译